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摘要 :【 目的 ] 统 计 近 5 年 相关 会 议 集 收录 的 论文 , 分 析 信息 检索 的 研究 热点 与 发 展 趋势 。[ 文献 范围 检索 2012 


年 -2016 年 ACL, ACMMM, ICML., KDD, SIGIR 45 5 个 信息 检索 领域 的 相关 会 议 集 收录 的 论文 。[ 方法 ] 使 


用 把 虫 软件 获取 5 个 相关 会 议 收录 的 论文 的 摘要 和 关键 词 ,并 利用 分 词 工具 对 其 处 理 ,， 进行 统计 分 析 和 文献 研 
To [AR] 发 现 目 前 信息 检索 中 移动 搜索 是 主流 ; 检索 模型 不 断 优化 ; 注重 过 滤 和 推荐 ; 与 人 工 智能 关系 密切 ， 
用 户 隐 私 以 及 医疗 健康 也 是 信息 检索 重点 关注 的 内 容 。[ 局 限 】 仅 采集 论文 的 摘要 和 关键 词 数 据 , 未 进行 全 文 内 
容 以 及 引文 的 分 析 。[ 结论 】 反映 目前 信息 检索 的 大 致 发 展 状况 , 为 其 他 学 者 开展 新 的 研究 提供 借鉴 和 参考 。 
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近年 来 , 国内 外 学 者 对 信息 检索 领域 的 研究 成 果 
相当 丰富 。 司 莉 等 以 WoS、ACM Emerald, Elsevier, 
ProQuest, Springer 等 数据 库 收录 的 文献 为 基础 ,对 近 
10 年 来 多 语言 信息 组 织 与 检索 的 研究 进行 述评 趾 ， 吴 
丹 等 以 国外 期 刊 发 表 的 协同 信息 检索 行为 研究 文献 
为 对 象 , 采用 综合 归纳 方法 , 分 析 协 同 信 息 检索 行为 
研究 的 进展 趾 ; 杨 海 锋 跟 踪 国 内 外 重要 研究 成 果 ， 对 
用 户 行为 在 信息 检索 中 的 研究 现状 进行 了 概况 和 评 
R, 并 总 结 了 信息 检索 面临 的 诸多 挑战 中 窦 永 香 等 
对 ACM SIGIR 年 会 进行 主题 分 析 ， 总 结 信息 检索 的 


m} 


采用 文献 计量 和 社会 网 络 分 析 等 方法 对 近 10 年 来 
ACM SIGIR 年 会 的 主题 及 论文 进行 统计 分 析 , 揭示 了 
言 息 检 索 领域 在 过 去 10 年 的 文献 主题 分 布 .作者 分 布 


EW, 

国外 学 者 的 研究 则 更 倾向 于 对 信息 检索 的 具体 应 
用 的 综述 。Casey 等 探讨 了 以 内 容 为 基础 的 音乐 信息 
检索 目前 的 发 展 方向 以 及 未 来 面临 的 诸多 挑战 四 
Kishida 对 当前 最 先进 的 跨 语言 信息 检索 技术 和 方法 
进行 综述 [1 Enser 援引 大 量 文献 综述 了 数字 化 时 代 的 
图 像 检索 、 视 频 检 索 、 语 义 图 像 检 索 等 可 视 化 信息 检 
索 的 发 展 历程 时 Smeaton 等 通过 对 SIGIR 过 去 25 
届 年 会 的 主题 和 合 著 情 况 作 分 析 , 概要 地 展示 了 
SIGIR 25 年 中 不 同 主题 的 分 布 及 作者 发 文 情况 四; 
Hiemstra 等 对 过 去 30 年 中 SIGIR 会 议 文献 作 分 析 
并 揭示 了 研究 主题 、 作 者 分 布 及 合 著 情况 (1。 

综合 来 看 , 国内 外 学 者 大 多 以 相关 期 刊 论文 为 对 
象 分 析 信 息 检 索 的 研究 热点 和 发 展 趋 势 ， 少 部 分 研究 
采用 会 议论 文 进行 分 析 ， 且 在 这 些 研究 中 作者 均 选择 
了 ACM SIGIR 这 一 会 议 的 论文 为 研究 对 象 ， 鉴于 目 


通讯 作者 : 杨 超 凡 , ORCID: 0000-0001-6327-9924, E-mail: yangchaofan@whu.edu.cn。 
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Data Analysis and Knowledge Discovery 


201712.01387v1 


chinaXiv 


前 信息 检索 的 发 展 方向 十 分 丰富 , 综合 多 个 相关 国 
际会 议论 文 进行 对 比分 析 就 显得 更 有 理论 价值 和 实 
RAX, 


2 数据 来 源 与 研究 方法 


本 文选 取 国 际 计算 机 语言 学 协会 年 会 (ACL)、 国 
际 计算 机 学 会 多 媒体 会 议 (ACMMM)、 国 际 机 器 学 习 
大 会 (CML)、 国 际 计 算 机 学 会 知识 发 现 与 数据 挖 气 年 
会 (KDD) 以 及 信息 检索 特别 兴趣 小 组 会 议 (SIGIR) 等 5 
个 信息 检索 相关 的 国际 会 议 2012 年 -2016 年 收录 的 论 


文 为 对 象 , 通过 网 络 息 虫 工 具 获 取 其 摘要 及 关键 词 ， 
并 利用 Stanford CoreNLP 进行 分 词 处 理 04， 进 行 研 究 
趋势 的 统计 和 归 类 分 析 。 

本 文 主要 运用 以 下 研究 方法 : 


(1) 网 络 调查 法 , 通过 5 个 国际 会 议 的 官方 网 站 查 
找 和 获取 有 关 的 论文 数据 , 使 得 本 文 比较 具有 真实 性 。 

(2) 文献 研究 法 , 借助 ACM DL, 、WoS 、 中 国 知 网 
等 数据 库 检 索 有 关 文 献 并 发 现 其 可 参考 之 处 , 使 得 本 
文 更 加 全 面 和 具有 说 服 力 。 

(3) 统计 分 析 法 , 使 用 网 络 朴 虫 工具 获取 了 2012 
年 -2016 年 5 个 国际 会 议 出 版 论文 的 数量 及 其 摘要 和 
关键 词 ， 对 热点 词 的 词 频 进 行 统计 ， 从 而 分 析 信息 检 
索 领 域 的 研究 趋势 ,因此 本 文具 有 较 强 的 严谨 性 。 


3 ”总体 统计 与 分 析 


各 年 度 会 议论 文 数量 的 变化 趋势 如 图 1 所 示 ，， 
体 来 看 ,5 2012 年 -2016 年 收录 的 论文 数 都 呈 
上 升 的 趋势 ,信息 检索 的 研究 和 应 用 不 断 丰 富 ， 推 动 
着 相关 会 议 接 收 论文 数 的 持续 增长 。 


—— ACL-2- ACMMM 一 


- ICML-—-— KDD => SIGIR 


2012 2013 2014 2015 2016 
年 从 


图 1 各 年 度 会 议论 文 数量 变化 趋势 
对 5 个 会 议 2012 年 -2016 年 收录 论文 的 摘要 做 分 
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词 处 理 , 并 与 关键 词 一 起 在 Excel 中 进行 筛选 和 排序 ， 
得 到 排名 前 20 的 热点 词 , 利用 WordArt.com 生成 词 云 
Kd, 如 图 2 所 示 , 可 以 发 现 这 些 热点 词 集中 在 以 下 几 
个 方面 : 

(1) 信息 检索 类 型 : 图 像 检 索 (image retrieval), 1 
频 搜索 (video search) 以 及 音乐 搜索 (music search) 等 。 

(2) 信息 检索 技术 : 事件 检测 (event detection)、 协 
同 过 滤 (collaborative filtering) 、 特 征 选 择 (feature 
selectiom 和 和 矩阵 分 解 (matrix factorization) 等 。 

Q) 信息 检索 研究 情境 : 社会 网 络 (social 
networks) 以 及 社交 媒体 (social media)。 

(4) 信息 检索 关联 技术 : 自然 语言 处 理 (natural 
language processing)、 机 需 学 习 (machine learning), 深度 
学 习 (deep learning) 以 及 神经 网 络 (neural networks) 等 。 


datar mining. E: 


Search engine 


a LAT TIR eng ine 


ehine | learning- 


atrix factorization 
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e filtering eVeht detection 


图 2 各 会 议 2012 年 -2016 年 热点 词 词 云图 


4 研究 热点 分 析 
4.1 热点 词 统计 排名 分 析 

对 各 年 度 5 个 会 议 的 热点 词 分 别 进行 了 统计 和 排 
FF, 得 到 各 年 度 会 议论 文 热点 词 频 次 排名 如 表 1 所 示 。 
由 此 得 出 以 下 发 现 : 

(1) ATH 能 相关 的 热点 词 词 频 均 处 于 上 升 赵 势 
其 中 神经 网 络 和 深度 学 习 在 5 年 间 迅 速成 为 信息 检索 


的 重点 研究 内 容 。 神 经 网 络 是 人 工 神 儿 ARI (Artificial 
Neural Network) 的 简称 ， 人 工 神经 网 络 是 从 信息 处 理 
角度 对 人 脑 神经 元 网 络 进 行 抽象 ， 建立 某 种 简单 模型 ， 
按 不 同 的 连接 方式 组 成 不 同 的 网 络 中 其 中 递归 神经 
网 络 (Recurrent Neural Network, RNN) 和 卷 积 神经 网 络 
(Convolutional Neural Network, CNN) 是 学 者 们 关注 的 
焦点 。RNN 是 一 种 反馈 神经 网 络 ， 是 一 个 非 线性 动力 
系统 ， 可 用 来 实现 联想 记忆 和 求解 优化 等 问题 请 1; 


CNN 是 一 种 前 馈 神 经 网 络 , 它 的 人 工 神 经 元 可 以 响应 
一 部 分 覆盖 范围 内 的 周围 单元 "“， 其 主要 用 于 处 理 大 
型 图 像 。 深 度 学 习 是 机 需 学 习 中 一 种 基于 数据 进行 
征 学 习 的 方法 , 其 主要 优势 是 利用 非 监督 式 或 半 监 督 
式 的 特征 学 习 和 分 层 特征 提取 高 效 算法 来 蔡 代 手工 获 
HUREN, 

(2) 相对 而 言 ,学 者 们 对 一 些 信息 检索 技术 的 关 
注 度 小 幅 下 降 ， 如 特征 选择 和 抢 阵 分 解 等 热点 词 的 出 
现 频率 整体 上 逐年 减少 。 特 征 选择 是 从 原始 特征 中 选 


择 出 一 些 最 有 效 特征 以 降低 数据 集 维度 的 过 程 ， 是 提 
高 学 习 算 法 性 能 的 一 个 重要 手段 ， 也 是 模式 识别 中 关 
键 的 数据 预 处 理 步 又 [9; 和 抢 阵 分 解 的 思想 就 是 信息 检 
索 中 用 户 和 物品 都 会 有 一 些 特性 , 矩阵 分 解 可 以 从 评 
分 矩 阵 中 分 解 出 用 户 一 一 特性 和 矩 阵 , 特性 一 一 物品 矩 
阵 ， 从 而 得 到 了 用 户 的 偏好 和 每 件 物品 的 特性 以 及 确 
定 和 矩阵 的 维度 中。 由 此 看 出 目前 信息 检索 研究 已 经 不 
只 局 限于 自身 相关 的 技术 , 而 是 转向 融合 其 他 学 科技 
术 的 综合 人 研究。 


表 1 各 年 度 会 议论 文 热点 词 频次 排名 表 


序号 热点 词 总 词 频 TEERAA 
2012 2013 2014 2015 2016 
1 神经 网 络 394 9 19 81 110 175 
2 机 器 学 习 386 45 72 72 87 110 
3 社交 网 络 379 109 81 56 83 50 
4 社交 媒体 358 66 76 51 71 66 
5 搜索 引擎 315 73 70 69 79 24 
6 信息 检索 196 35 41 65 55 39 
7 数据 挖掘 148 43 31 31 28 15 
8 图 像 检 索 128 41 28 22 24 11 
9 自然 语言 处 理 126 6 10 7 52 51 
10 主题 模型 112 22 48 13 13 26 
11 监督 式 学 习 109 30 20 22 16 21 
12 网 页 搜索 101 11 30 29 22 10 
13 推荐 系统 100 20 25 23 20 12 
14 深度 学 习 88 5 5 11 18 49 
15 视频 搜索 88 27 20 17 14 10 
16 事件 检测 87 14 18 6 28 21 
17 音乐 搜索 86 11 14 15 21 24 
18 协同 过 滤 82 14 22 19 16 11 
19 特征 选择 75 27 14 14 12 8 
20 和 矩阵 分 解 75 21 22 16 10 6 
21 主动 学 习 73 26 21 13 7 6 
22 情感 分 析 68 16 8 10 14 20 
23 语言 模型 67 17 19 10 12 9 
24 分 词 技术 65 6 14 20 13 12 
25 增强 学 习 63 18 7 9 6 23 


4.2 各 会 议 主题 分 析 
本 文 对 各 年 度 会 议论 文 的 主题 进行 整理 和 分 类 ， 
归纳 出 各 年 度 会 议论 文 主题 词 表 , 如 表 2 所 示 。 从 中 
可 以 看 出 : 
(1) ACL 会 议 中 机 器 翻译 、 信 息 抽 取 、 


问答 系统 


以 及 自然 语言 处 理 等 研究 主题 较为 稳定 , 但 其 中 某 些 
同一 主题 下 的 论文 的 研究 内 容 也 随时 间 的 推进 而 发 生 
演变 。 例 如 对 信息 抽取 的 关注 点 从 语义 关系 抽取 转向 
命名 实体 识别 和 大 规模 信息 抽取 ; 在 机 器 翻译 方面 ， 
从 基于 短语 的 统计 机 器 翻译 研究 转向 端 对 端的 神经 机 
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各 年 度 会 议论 文 主题 词 表 
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会 议 \ 主 题 


2012 


2013 


2014 


2015 


2016 


ACL 


ACMMM 


ICML 


KDD 


SIGIR 


机 器 翻译 ; 


文本 分 类 ; 自然 语言 
处 理应 用 


多 媒体 推荐 ; 持续 性 
情感 分 析 ; 基于 内 容 
的 图 像 检 索 ; 大 规模 
搜索 ; 人 脸 识别 ; 社 
交 媒 体 


聚 类 分 析 ; 增强 学 习 ; 


数据 挖掘; 
FUBLUBG, 问答 系统 ; 


观点 挖掘 ; 机 器 翻译 ; 
自然 语言 处 理应 用 ; 
问答 系统 ; 机 器 学 习 
文本 分 类 ; 信息 抽取 ; 


行为 与 事件 识别 ; 多 
峰 分 析 ; 社会 动力 学 ; 
相似 性 搜索 ; 情境 感 
知 ; 音乐 与 戏剧 分 析 


机 器 翻译 ， 自然 语言 
处 理 ; 分词 技术 与 词 
性 标注 ; 情感 分 析 ; 
机 器 学 习 ; 问答 系统 


行为 与 事件 识别 ; 深 
度 学 习 ; 人 机 交互 ; 
多 媒体 分 析 与 挖 气 ; 
隐私 与 健康 ; 多 媒体 
推荐 ; 移动 搜索 


神经 网 络 ; 机 咒 学 习 ; 
信息 抽取 ; 机 器 翻译 ; 


问答 系统 ; 信息 抽取 ; 
神经 网 络 ; 机 器 翻译 ; 


问答 系统 ; 自然 语言 
处 理 ; 主题 模型 


多 媒体 标 引 与 搜索 ; 
行为 与 事件 识别 ; 多 
媒体 质量 感知 ; 人 机 
交互 ; 虚拟 现实 与 增 
强 现实 ; 移动 设备 


增强 学 习 ; 深度 学 习 ; 


神经 网 络 与 深度 学 习 ; 


优化 算法 ; 隐私 与 保 


社交 网 络 ; 主题 模型 
支持 向 量 机 与 决策 树 ; 


密 ; 监督 式 学 习 ; 概 
率 模型 


网 页 级 别 与 社交 媒体 ; 
模式 挖掘 ; 概率 模型 ; 


监督 式 学 习 ; 网 站 应 


用 ; 个 性 化 推荐 


多 媒体 ; 检索 评价 ; 


NOR Ut MET US: 
MEA ft 

文档 与 主题 模型 ; 社 
交 媒体 ; 大 数据 框架 ; 


深度 学 习 ; 增强 学 习 ; 


结构 化 预测 ; 聚 类 分 
析 ; 特征 选择 ; 神经 
网 络 ; 矩阵 分 解 ; E 
题 模型 


医疗 与 安全 ; 监督 式 
学 习 ; 社交 媒体 ; 特 


图 像 挖 气 ; 医疗 与 生 
活 ; 深度 学 习 ; 推荐 
系统 


社交 媒体 ; 推荐 系统 ; 


推荐 系统 ; 搜索 日 志 
分 析 ; 社交 媒体 ; 个 
性 化 与 用 户 模型 ; 搜 
索 效 率 ; 文本 分 类 


主题 模型 ; 多 媒体 检 
索 ; 用 户 行为 ; 文本 
分 类 ; 电子 商务 ; 相 
似 性 搜索 ; 移动 搜索 


征 选择 ; 文本 挖掘 
隐私 与 保密 ; 主题 模 
型 ; 移动 设备 


社交 媒体 ; 移动 搜索 


标 引 与 搜索 效率 ; 用 


户 与 模型 ; 情感 分 析 ; 


深度 学 习 ; 概率 模型 


增强 学 习 ; 结构 化 预 
测 ; 时 间 序 列 分 析 


特征 选择 ; 隐私 研究 


聚 类 分 析 


大 数据 ; 主题 模型 ; 
隐私 与 保密 ; 移动 设 


深度 学 习 ; 语义 分 析 ; 
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器 翻译 研究 ; 而 对 于 问答 系统 的 研究 则 由 基于 增强 词 
汇 的 语义 模型 向 分 层 并 行 的 知识 理解 模型 转变 。 总 的 
来 说 , ACL 会 议 主要 关注 信息 检索 中 的 信息 的 获取 与 
处 理 和 语义 的 分 析 与 理解 等 内 容 。 

(2) ACMMM 会 议 的 主题 则 较为 丰富 ,其 中 涉及 
到 较 多 与 信息 检索 相关 的 新 技术 。 人 机 交互 是 指 人 与 
计算 机 之 间 使 用 某 种 对 话语 言 ， 以 一 定 的 交互 方式 , 为 
完成 确定 任务 的 人 与 计算 机 之 间 的 信息 交换 过 程 中 有 
关 人 机 交互 方面 的 研究 从 行为 与 事件 识别 转向 人 脸 识 
别 以 及 情感 识别 。 近 两 年 ， 虚拟 现实 与 增强 现实 也 成 
为 ACMMM 会 议 的 热门 研究 主题 , 虚拟 现实 技术 是 一 
种 可 以 创建 和 体验 虚拟 世界 的 计算 机 仿真 系统 "J; 增 
强 现实 技术 是 一 种 实时 地 计算 摄影 机 影像 的 位 置 及 角 
度 并 加 上 相应 图 像 、 视 频 、3D 模型 的 技术 四。 综合 其 他 
主题 发 现 , ACMMM 会 议 主要 呈现 了 新 兴 技 术 与 信息 检 
索 的 交互 应 用 以 及 多 媒体 信息 的 搜索 、 推 荐 和 评价 。 

(3) ICML 会 议 则 较为 专注 于 研究 聚 类 分 析 以 及 深 
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度 学 习 、 增 强 学 习 和 监督 式 学 习 等 机 器 学 习 的 子 类 方 
法 。 聚 类 分 析 是 将 物理 或 抽象 对 象 的 集合 分 组 为 由 类 
似 的 对 象 组 成 的 多 个 类 的 分 析 过 程 ， 其 研究 内 容 包括 
预测 药物 不 良 反应 事件 2 以 及 子 空间 分 割 的 多 任务 学 
J, RARA, ICML 侧重 于 探索 机 器 学 习 与 信息 
检索 的 融合 以 及 对 检索 模型 的 研究 。 

(4) KDD 会 议 的 主题 倾向 于 各 类 数据 的 挖掘 与 知 
识 发 现 ,挖掘 形式 从 文本 挖掘 、 图 像 挖掘 到 模式 挖掘 ， 
研究 的 情境 从 2012 年 -2014 年 的 社交 媒体 到 近 两 年 的 
电子 商务 ,研究 内 容 覆 盖 了 网 站 应 用 、 医 疗 健康 、 隐 
私 与 保密 以 及 用 户 行为 等 。 此 外 , 近 5 年 KDD 会 议 对 
推荐 系统 的 研究 也 较为 热门 ,推荐 系统 是 根据 用 户 的 
兴趣 特点 和 购买 行为 的 过 程 ， 向 用 户 推 荐 用 户 感 兴 
的 信息 和 商品 ,其 推荐 方法 包括 基于 内 容 推荐 、 基 于 
关联 规则 推荐 、 基 于 知识 推荐 和 组 合 推荐 等 请。 从 以 
上 主题 中 可 以 看 出 , 信息 检索 与 数据 挖掘 息息相关 ， 
两 者 的 综合 应 用 前 景 广阔 。 


(5) SIGIR 会 议 的 研究 主题 大 多 集中 在 信息 检索 
技术 以 及 应 用 , 且 研 究 内 容 由 搜索 日 志 分 析 、 文 本 分 
类 以 及 检索 模型 转向 搜索 算法 、 搜 索 效果 评价 和 问答 
系统 等 ; 此 外 , SIGIR 会 议 的 主题 中 涉及 用 户 研 究 的 也 
比较 多 ， 如 个 性 化 推荐 、 情 感 分 析 、 用 户 行为 以 及 搜 
索 体 验 和 满意 度 等 , 总 的 来 看 , SIGIR 会 议 各 年 度 论文 
主题 推陈出新 , 如 对 于 赞助 商 搜索 广告 的 语义 匹配 研 
究 呈 以 及 通过 探索 在 线 用 户 行为 来 提高 个 性 化 音乐 检 
索 效率 上 3， 信息 检索 的 研究 范畴 正在 逐渐 扩大 。 


5 研究 趋势 分 析 


根据 以 上 对 热点 词 和 主题 词 的 分 析 以 及 对 各 年 度 
会 议论 文 的 对 比 研 究 , 笔者 归纳 出 信息 检索 研究 的 如 
下 发 展 趋势 : 

5.1 移动 搜索 成 为 主流 研究 内 容 

随 着 互联 网 和 智能 科技 的 不 断 发 展 , 信息 检索 不 
再 只 有 个 人 电脑 终端 (PC) 搜 索 ， 用户 越 来 越 多 地 依赖 
移动 设备 来 搜索 他 们 所 需 的 信息 以 及 服务 。 从 各 会 议 
的 论文 中 发 现 : 

(1) 移动 搜索 与 周边 的 商家 及 服务 密 不 可 分 。 基 
于 移动 搜索 和 PC 搜索 的 不 同 ，Lv 等 通过 数据 分 析 了 
用 户 在 移动 设备 上 的 搜索 日 志 P9。 

Q) 用 户 行为 是 目前 整个 学 术 界 的 研究 热点 , 用 
户 移动 搜索 行为 也 在 信息 检索 领域 中 有 所 涉及 。Lagun 
等 通过 实验 研究 了 用 户 在 移动 搜索 中 对 移动 设备 视窗 
的 注意 情况 71。 

(3) 较 多 学 者 正在 评估 用 户 对 移动 搜索 的 满意 
度 。Williams 等 研究 了 搜索 答案 对 于 移动 搜索 用 户 的 
影响 以 及 用 户 相 应 的 满意 度 己 ]。 

5.22 ”信息 检索 模型 正在 优化 和 拓展 

信息 检索 模型 是 信息 检索 的 主要 研究 内 容 ， 其 运 
用 数学 或 其 他 语言 与 工具 ,对 于 信息 检索 的 查询 和 文 
档 及 其 匹配 程度 进行 抽象 描述 ， 目 前 的 信息 检索 模型 
包括 布尔 模型 、 向 量 空间 模型 、 概 率 模型 、 语 言 模 型 
以 及 基于 本 体 的 检索 模型 等 中 I。 各 会 议 对 于 布尔 模型 
的 研究 较 少 , 而 主要 关注 其 他 模型 的 优化 和 拓展 应 
用 。 从 这 些 相关 论文 中 可 以 看 出 : 

(1) 语言 模型 是 当前 最 受 关注 的 信息 检索 模型 ， 
无 论 是 在 社交 网 站 上 的 应 用 , 还 是 运用 到 多 媒体 检索 
或 特定 文档 的 检索 任务 。Tsagkias 等 开发 了 推断 用 户 


浏览 行为 的 语言 动机 模型 6; Chen 等 则 将 多 峰 语 言 模 
型 用 于 演讲 视频 检索 中 B1; Raviv 等 研究 了 基于 实体 
的 语言 模型 在 小 说 文档 中 的 检索 效果 F1。 

(2) 概率 模型 则 更 多 地 用 于 提高 检索 的 效率 。 
Zhao 等 构建 了 上 下 文 相 关 的 邻近 检索 模型 以 提升 检 
索 的 效率 中 1。 

5.3 ”更 加 注重 过 滤 与 推荐 

在 信息 检索 中 , 过 滤 与 推荐 是 满足 用 户 信息 需求 
的 重要 技术 ， 有 关 过 滤 与 推荐 的 算法 和 系统 始终 是 学 
者 们 关注 的 问题 。 从 各 会 议 的 论文 中 得 出 以 下 结论 : 

(1) 协同 过 滤 是 利用 某 兴趣 相投 、 拥 有 共同 经 验 的 
群体 的 喜好 来 推荐 用 户 感 兴趣 的 信息 ， 其 突出 优点 在 
于 能 够 结合 其 他 人 的 经 验 , 过 滤 机 器 难以 自动 内 容 分 
析 的 信息 ,避免 了 内 容 分 析 的 不 完全 或 不 精确 握 。Shih 
等 提出 了 一 种 提升 协同 过 滤 中 评价 较 少 项 目的 方法 1。 

(2) 学 者 们 对 社交 媒体 内 容 的 推荐 以 及 相关 研究 
MAMER, Hayashi 等 在 研究 Twitter 信息 检索 时 开发 
了 一 种 将 主题 抽取 和 信息 流 过 滤 融 合 的 流 算 法 并 应 用 
于 Twitter 信息 流 中 F9。 

(3) 多 媒体 信息 是 当前 信息 检索 领域 中 过 滤 与 推 
荐 研究 关注 的 最 热门 内 容 。 Lu 等 研究 了 基于 创新 计算 
的 在 线 视频 推荐 系统 BE] Mao 等 以 歌曲 难度 评级 为 依 
据 开发 了 首 个 社交 歌唱 社区 推荐 系统 9。 

5.4 ”信息 检索 与 人 工 智 能 关系 密切 

言 息 检索 与 计算 机 科学 有 着 千 丝 万 缕 的 联系 ， 而 
当前 人 工 智能 是 计算 机 科学 的 一 个 热门 分 支 , 因此 信 
息 检 索 与 人 工 智能 的 关系 相当 密切 。 纵 观 各 会 议 的 论 
文 主要 有 以 下 几 个 方面 的 发 现 : 

(1) 机 器 学 习 应 用 于 信息 检索 中 的 查询 与 鉴别 。 
Lu 等 运用 非 监督 式 学 习 的 方法 系统 地 鉴别 音乐 数据 
集中 的 异常 部 分 中 9。 

(2) 神经 网 络 在 跨 语言 检索 中 的 应 用 。Zhou 等 建 
立 了 一 种 弱 共 享 深度 神经 网 络 结构 来 解决 跨 语 言情 感 
分 类 中 源 语言 数据 与 目标 语言 数据 的 特征 空间 重合 问 
Ain] 

(3) 在 机 器 学 习 中 运用 信息 检索 可 以 实现 人 机 对 
话 等 多 方面 的 功能 。Yan 等 运用 信息 检索 、 自 然 语言 
处 理 等 技术 建立 了 人 机 之 间 的 自动 对 话 系统 外 1。 

55 ”隐私 问题 在 信息 检索 中 广 受 关注 
伴随 着 信息 检索 技术 的 发 展 ， 隐 私 的 泄露 和 非法 
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交易 等 问题 不 断 出 现 , 因此 隐私 问题 也 是 信息 检索 领 
域 的 众多 学 者 热衷 于 人 研究 的 。 从 相关 论文 中 可 以 得 出 : 

(1) 信息 检索 广泛 应 用 于 社交 媒体 用 户 的 隐私 保 
护 问 题 。Zerr 等 提出 一 种 自动 检测 隐私 照片 的 技术 并 
开发 了 基于 隐私 意识 的 照片 分 类 检索 系统 [9。 

(2) 差分 隐私 (Differential Privacy) 是 基于 数据 失 
真 的 隐私 保护 技术 , 通过 问 查 询 或 者 分 析 结 果 中 添加 
噪音 使 数据 失真 ， 从 而 达到 隐私 保护 的 目的 中]。 Zhang 
等 介绍 了 一 种 利用 差分 隐私 技术 将 查询 日 志 匿 名 化 的 

ERIE“, 

Q) 信息 检索 还 用 于 研究 个 性 化 网 络 搜索 中 的 隐 
私 问 题 。Ahmad 等 提出 了 建立 在 客户 端 基于 主题 的 隐 
私 保护 措施 以 解决 搜索 引擎 保存 用 户 历史 搜 索 记 录 可 
能 产生 的 隐私 问题 人 。 

5.6 ”医疗 与 健康 成 为 焦点 

近年 来 ， 医 疗 与 健康 问题 已 经 成 为 各 学 科 的 研究 
热点 , 在 信息 检索 领域 也 不 例外 。 通 读 各 会 议 相 关 论 
文 发 现 信息 检索 对 医疗 与 健康 的 研究 主要 集中 在 以 下 
方面 : 

(1) 医疗 信息 检索 的 质量 和 效果 是 学 者 们 所 重点 
关注 的 。Schoenherr 等 研究 了 挖掘 健康 信息 的 查询 和 
搜索 历史 的 潜在 策略 !9。 

(2) 通过 信息 检索 可 以 实现 对 用 户 健康 状况 的 监 
控 。Sidana 等 运用 主题 模型 的 思想 提出 了 一 种 新 的 潜 
在 疾病 模型 1。 


6 结 语 


本 文通 过 对 5 个 相关 会 议 的 论文 进行 分 析 与 综述 ， 
发 现 了 信息 检索 的 研究 现状 及 发 展 趋势 ， 为 相关 学 者 
展现 了 该 领域 的 大 致 发 展 面 瑶 ， 从 而 为 开拓 新 的 研究 
方向 与 主题 提供 了 一 定 的 借鉴 意义 。 但 由 于 部 分 会 议 
论文 的 获取 难度 较 大 , 仪 能 采集 到 题目 、 摘 要 和 关键 词 
等 信息 , 无 法 从 全 文 的 视角 进行 更 具 深 度 的 分 析 ， 因此 
下 一 步 值得 开展 的 研究 是 进行 基于 全 文 内 容 以 及 引文 
的 分 析 ， 从 而 更 好 地 了 解 信息 检索 的 最 新 动态 。 
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Abstract: [Objective] This paper reviews conference papers on information retrieval, aiming to identify the research 
hotspots and development trends in this field. [Coverage] Papers published by ACL, ACMMM, ICML, KDD, and 
SIGIR from 2012 to 2016. [Methods] We first collected these papers’ abstracts and keywords to process them with 
word segmentation package. Then, we analyzed these data with statistic tests. [Results] We found that mobile search 
was the most popular topic and the information retrieval models had been optimized. Filtering and recommending 
received more attention from the researchers. Information retrieval studies established close ties with artificial 
intelligence. User's privacy protection and health information retrieval were also popular. [Limitations] Only collected 
the abstracts and keywords. More research is needed to study the full texts and citations. [Conclusions] This paper 
presents the latest developments of information retrieval research. 
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学 术 研 究 : 意见 领袖 在 社交 媒体 中 的 重要 性 


跟踪 研究 一 个 月 内 随机 抽样 的 30 万 活跃 用 户 的 Twitter 更 新 结果 显示 社会 媒体 和 社交 网 络 的 这 个 特殊 角落 并 不 像 人 们 
认为 的 那样 平等 和 民主 。 事 实 上 ,， 《国际 互联 网 营销 和 广告 杂志 》(International Journal of Internet Marketing and Advertising)" 
上 发 表 的 研究 表明 , 信息 流动 分 为 两 步 (Two-Step Flow of Informatiom)， 少 数 用 户 产生 了 大 部 分 的 影响 力 ， 意 见 领导 人 跟随 其 
他 意见 领袖 ,并 在 广泛 的 用 户 群 体内 有 效 地 形成 一 个 有 影响 力 的 社区 , 传播 的 信息 随 着 日 常用 户 共享 、 转 发 和 重用 ,遵循 某 
种 权力 分 配 。 
科罗拉多 大 学 广告 、 公 共 关 系 和 媒体 设计 系 Harsha Gangadharbatla 和 Twitter 的 软件 工程 师 Masoud Valafar 解释 ， 有 关 信 
息 传 播 , 以 及 “口碑 ”如 何 影 响 民 意 和 消费 决策 的 理论 非常 多 , 媒体 和 社交 媒体 对 个 人 和 团体 的 影响 也 有 很 多 研究 。 

其 中 一 种 理论 被 称 为 两 步 流 理论 (Two-Step Flow Theory)。 该 理论 认为 , 意见 领袖 的 意见 很 容易 诱导 大 众 就 某 一 主题 形成 
意见 。 同 时 , 这 些 意 见 领袖 本 身 也 受到 大 众 媒 体 的 影响 。 这 与 一 步 流 理论 (One-Step Flow Theory) 形 成 对 比 , 在 该 理论 下 ， 人 
们 直接 受到 大 众 媒体 的 影响 。 显 然 , 无 论 是 电视 、 广 播 、 报 纸 还 是 网 络 ， 人 们 都 会 不 断 地 暴露 在 大 众 媒体 之 下 。 但 是 ,研究 
人 员 认 为 ,这 个 意见 实际 上 更 有 可 能 是 在 两 步 过 程 中 形成 。 对 社交 媒体 分 享 的 意见 尤其 如 此 ,同样 也 可 能 适用 于 传统 媒体 的 
环境 一 一 电视 专家 、 报 刊 杂 志 、 专 栏 作家 等 。 

人 们 往往 认为 ， 随 着 YouTube、Twitter、Instagram， 以 及 其 他 的 Web 2.0 网 站 等 新 媒体 的 出 现 , 信息 和 影响 力 的 民主 化 开 
始 显现 。Gangadharbatla 和 Valafar 认为 , 事实 并 非 如 此 ,至 少 在 Twitter 的 环境 下 并 不 是 这 样 。 社 交 媒 体 正在 彻底 改变 用 户 和 
消费 者 获取 信息 、 新 闻 和 意见 的 方式 , 但 与 过 去 一 样 , 仍然 存在 有 很 大 影响 力 的 人 , 也 即 意见 领袖 ,他 们 可 能 是 信息 中 心 、 新 
闻 媒 体 ， 甚至 是 名 人 , 是 信息 和 意见 的 主要 来 源 。 

该 文章 认为 :“ 在 社交 媒体 上 与 传统 媒体 中 , 信息 传播 的 方式 并 没有 什么 不 同 , 换 句 话说 ,即使 是 像 Twitter 和 Instagram 
这 样 的 民主 环境 , 信息 也 主要 通过 意见 领袖 进行 传播 , 更 为 重要 的 是 , 这 些 意见 领袖 与 媒介 上 的 其 他 与 论 领 袖 联 系 起 来 ， 形 
成 一 个 虚构 的 意见 领袖 ,对 社交 媒体 上 信息 以 何 种 方式 以 及 何 种 速度 进行 传播 产生 强大 的 影响 。 因 此 ， 从 商业 角度 来 说 ,， 瞄 
准 虚拟 社区 的 意见 领袖 进行 推广 将 比 在 Twitter 上 广 撤 网 接触 人 民 群 众 更 加 有 效 。” 

(编译 自 : https://www.sciencedaily.com/releases/2017/08/170810104849.htm) 
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